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一 种 低 开 销 软 硬件 混合 的 细 粒 度 内 存 
行为 分 析 方 法 
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摘 要 : 内 存 行为 分 析 是 进行 内 存 系统 调度 、 体 系 结构 及 
分 析 能 够 标识 内 存 系统 性 能 瓶 贷 的 源头 ， 并 为 亿 


了 一 种 软 硬 件 混合 的 细 粒 度 内 存 


桩 、 模 拟 器 、 硬 件 计 数 器 等 ， 但 它们 分 别 存在 


关键 词 ， 内 存 行为 分 析 HMTT 软 硬 件 


p 


1 引言 


行为 分 析 方法 ， 能 够 对 程序 的 完整 访 存 序列 进行 


件 方面 使 用 HMTT 卡 监控 系统 访 存 请 求 ， 软 件 方面 采用 二 进 制 插 
导出 内 核 页 表 及 对 象 内 存 分 配 信息 来 得 3 
以 较 低 的 开销 ， 准 确 地 获取 真实 系统 上 上 


下 每 个 对 象 的 内 存 空间 信息 。 
的 函数 及 对 象 级 的 访 存 序列 。 


混合 函数 对 象 


桩 方式 来 获取 函数 入 


应 用 访 存 性 能 等 优化 的 基础 ， 而 细 粒 度 的 内 存 行为 

化 提供 丰富 的 语义 信息 。 常 用 的 内 存 行为 分 析 手 段 包括 插 

销 大 ， 准 确 性 不 足 ， 无 法 提供 详细 信息 等 问题 。 本 文 提出 
[E 


数 级 和 对 象 级 分 析 。 便 


LH 


信息 ， 通 过 


^ LJ 


实验 结果 表明 ， 本 文 提出 的 方法 能 


随 着 单个 处 理 器 蕊 片上 集成 的 核 个 数 不 断 增加 ， 内 存 作为 多 核 系统 的 共享 资源 , 将 受到 


越 来 越 大 的 访问 压力 ， 内 存 系统 已 成 为 多 核 系 统 性 能 的 主要 瓶颈 丫 。 因 | 


EHEH 


地 获取 程序 在 


真实 系统 上 运行 的 访 存 踪迹 (trace， 即 访 存 地 址 序列 )， 


行为 进行 分 析 变 得 至 关 重 要 ， 


段 有 很 多 种 , 包括 : 编译 驱动 、 动 态 提 


FH. BU as. Se E 


Counter) 等 。 
这 样 在 运行 时 就 不 需要 其 


接 , 这 可 能 需要 较 长 的 时 间 。 而且 这 种 方法 无 法 对 那些 没 提供 源码 的 程序 进行 处 理 。 动 态 插 


编译 驱动 通过 在 程序 编译 或 链接 的 过 程 中 提 


并 基于 此 对 程序 执行 过 程 中 的 访 存 
这 是 进行 内 存 系 统 调度 及 结构 优化 的 基础 。 内 存 行 为 分 析 的 手 
性 能 计数 器 (Hardware Performance 


i 柱 植 入 用 于 收集 访 存 序列 的 代码 ， 


它 处 理 , 所 以 运行 开销 较 低 。 但 是 它 需要 对 程序 进行 重新 编译 或 链 


桩 采用 即时 编译 (Just In Time, JIT) 技术 在 程序 运行 时 动态 插入 桩 代码 ， 
富 信 息 的 访 存 序列 ， 但 是 动态 插 桩 
的 运行 开销 比较 大 ， 不 适合 用 于 那 


些 运 行 时 间 较 长 的 程序 。 文 献 [2] 
p: 使 用 动态 插 桩 技术 (如 Pin! 
来 获取 对 和 象 级 的 访 存 行为 ， 即 使 


开销 高 达 程 序 原始 运行 时 间 


进行 10% 的 数据 采样 ， 带 来 的 运行 


指 
) 


R 


的 


表 1. 不 同 内 存 分 析 方 法 的 对 比 


能 够 得 到 包含 丰 


30-80 倍 。 模 拟 器 是 另外 一 种 可 用 


于 收集 丰富 信息 的 内 存 分 析 手 段 ， 


但 是 模拟 器 得 到 的 访 存 序列 不 是 真实 机 器 上 产生 的 ， 
销 非常 大 。 硬 件 性 能 计数 器 通过 统计 内 存 相关 事件 来 获取 程序 在 真实 机 器 .4 
是 硬件 事件 计数 器 只 能 得 到 一 些 统计 数据 ， 而 无 法 得 到 详细 的 访 存 序列 。 


这 些 内 存 分 析 方 法 的 对 比 。 这 里 需要 指 


d: 


准确 ”详细 ” 低 开销 页 表 访 存 
t Voy x x 
模拟 器 x 
硬件 性 能 计数 器 V xx ， * 
编译 支持 VY x 
混合 软 硬 件 方法 | 4 J y 
因此 存在 准确 性 问题 ， 而 精确 模拟 的 开 


] 和 科罗拉多 大 学 


发 的 一 球 程 序 分 析 工 具 


软件 
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HAE, 上述 方法 


^ 


的 访 存 行为 ,但 


能 收集 那些 由 于 


一 种 低 开 销 软 硬件 混合 的 细 粒 度 内 存 行 为 分 析 方 法 


访问 的 数据 在 高 速 缓存 〈Cache) 中 缺失 (Miss) 导致 的 访 存 请 求 ， 而 不 能 收集 真实 系统 上 


那些 由 


于 旁 路 转换 组 ; 


gE (Transaction Lookaside Buffer Miss, TLB Miss? 


导致 的 页 表 访 


TE (page memory walks )。 因 为 旁 路 转换 缓冲 缺失 导致 的 系统 性 能 下 降 可 以 达到 5$~14%D)， 
所 以 在 真实 多 核 系 统 上 进行 页 表 访 存 行 为 分 析 变 得 越 来 越 重要 。 以 前 看 


基本 是 通过 将 收集 的 访 存 序列 输入 到 旁 路 转换 组 ; 
优化 。 但 是 旁 路 转换 绥 ; 
异 )。 而 本 文 提出 


模拟 器 存在 准确 性 问题 
的 软 硬 件 混合 


操作 系统 访 存 向 、 直 接 内 存 存 取 (Direct Memory Access, DMA) 访 存 口 、 
过 监控 内 核 中 的 页 表 状 态 更 新 ， 我 们 能 够 准确 


为 了 进 


f 究 旁 路 转换 缓冲 行为 
' 模 拟 器 中 来 实现 , FFE 
(与 真实 系统 的 旁 路 转换 缓冲 实现 存在 差 
的 内 存 分 析 方 法 ， 能 够 监控 整个 系统 的 所 有 访 存 请 求 ， 包 括 


模拟 结果 来 指导 


页 表 访 存 等 。 通 


识别 出 页 表 访 存 ， 并 将 其 对 应 到 程序 的 对 象 。 


度 的 函数 级 和 对 象 级 的 划分 。 


为 了 得 到 函数 (调用 ) 的 入 
image)， 在 目标 函数 的 入 口 及 出 


些 标签 访 存 与 程序 正常 的 访 存 都 ; 


HMTT) "Hit 


侦 听 到 。 


将 底层 的 访 存 】 


步 分 析 访 存 序列 对 应 的 上 层 语 义 信 息 , 本 文 提出 了 对 访 存 地 址 序列 进行 更 细 粒 


、 出口 信息 , 我 们 通过 直接 修改 内 存 中 的 进程 映像 (process 
口 位 置 分 别 插入 一 条 额外 的 特殊 标签 (tag) 访 存 指令 。 
各 被 混合 访 存 踪迹 收集 工具 (Hybrid Memory Trace Toolkit, 
通过 解析 不 同 标 签 访 存 与 函数 入 口 、 出 口 之 间 的 映射 关系 ， 就 能 


这 


为 了 得 到 每 个 对 象 的 访 存 序列 , 我 们 通过 修改 Linux 内 核 中 的 页 


进程 页 表 的 更 新 操作 信息 都 导出 来 。 在 解析 访 存 序列 的 时 候 ， 动 态 习 
重 构 页 表 可 以 得 到 该 访 存 是 否 为 页 表 访 存 、 对 应 
时 我 们 还 收集 进程 运行 过 程 中 的 对 象 内 存 


个 对 象 。 


区 域 信 ， 


实验 结果 表明 , 本 文 提 出 的 软 硬 件 结合 的 访 存 行为 分 析 方 法 能 够 准 


的 函数 级 和 对 象 级 访 存 行为 ， 而 引入 的 开销 很 低 : 对 于 函数 级 划分 ， 


之 相 比 ， 纯 软 伯 


F 使 用 Pin 方法 需要 10.4 倍 的 开销 )， 对 于 对 象 级 划分 ， 


际 迹 与 高 层 的 函数 执行 序列 关联 起 来 ， 从 而 实现 对 访 存 踪迹 的 函数 级 别 分 割 。 


EFE, X 
EJ UL, XUI fri 
的 进程 标识 Cpid) 和 虚拟 地 址 等 信息 。 同 
息 , 从 而 能 够 识别 出 每 个 访 存 请 求 来 自 于 哪 


确 地 获取 真实 系统 上 


平 


均 开销 为 62% (与 
平均 开销 仅 为 1.6%。 


本 文 的 组 织 如 下 : 第 二 节 概 述 访 存 踪迹 收集 工具 HMTT3 的 设计 和 实现 ; 第 3 节 介 绍 函 


数 级 内 存 行为 分 析 的 实现 ， 第 4 节 介绍 对 象 级 内 存 行 为 分 析 的 实现 ; 


第 六 节 为 总 结 和 下 一 步 工 作 。 
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HMTT RAS 


的 软 硬 件 结合 


的 访 存 行为 监测 与 分 析 系 统 ， 通 过 硬件 
侦 听 内 存 总 线 上 的 访 存 信 号 ， 实 时 获取 全 系统 访 存 物 


HMTT3 的 设计 和 实现 


是 我 们 自主 研发 的 一 个 独立 于 平台 


理 地 址 序列 ， 通 过 反 查 页 表 获 取 进 程 标识 和 虚拟 地 址 。 


采用 人 硬件 侦 听 方案 的 优点 是 : 
额外 的 访 存 干扰 ， 能 够 得 到 包 提 


ER SERE. 


经 实现 到 第 3 个 版 本 ， 支 持 DDR3-800〈 工 作 频 率 为 


400MHz) , HM 


1 4 HMTT3 WYK, E 
DIMM) ir, 一 个 负责 监测 内 存 总 线 信 号 的 
一 个 负责 向 外 传输 访 存 序列 数据 的 PCIE 1.0 


对 程序 透明 ， 不 会 引入 
6 物理 地 址 、 读 /号 、 时 
虚拟 地 址 等 丰富 信息 。 目 前 HMTT 已 


图 1. 
上 布 有 双 列 直 插 式 存储 模块 (Dual-Inline-Memory-Modules,， 


TT 的 主页 为 http://asg.ict.ac.cn/hmtt/。 


的 连接 槽 以 及 其 他 部 件 。 
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AAA 


E54 


相关 工作 ; 


HMTT3 板 卡 


现场 可 编程 阵列 Xilinx Virtex-6 LX130T FPGA, 
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DIMM 档 上 ， 内 存 条 则 改 插 在 


侦 听 的 方式 监测 内 存 命令 和 地 址 总 线 上 收 到 的 所 有 访 存 信号 。 在 现场 可 编程 阵列 内 部 维 


信息 技术 快报 Vol.10 No.5 
Information Technology Letter Sep. 2012 


图 2 为 HMTT3 的 内 部 硬件 模块 图 。HMTT3 工作 的 时 候 ， 直 接 插 在 被 监控 机 器 的 主板 


HMTT3 卡 上 安装 的 DIMM 槽 上 ， 现 场 可 编 


程 阵列 采用 劳 路 


护 


DDR3 时 序 状态 机 ， 识 别 出 每 个 读 写 访 存 请 求 ， 再 通过 查询 预先 测 出 的 机 器 物理 内 存 到 
此 次 访 存 的 物理 地 址 。 打 包 单 元 负责 将 访 存 地 址 ， 时 间 截 ， 


DRAM 地 址 的 映射 表 ， 构 造 出 


读 写 等 信息 组 织 并 打 成 包 放 入 FIFO? 队 列 中 。PCIE 硬 核 负 责 将 访 存 请 求 以 PCIE fh 
通过 PCIE 电缆 (cable) 传送 到 接收 机 上 ， 进 而 保存 到 接收 机 的 Trace CERO. 文件 中 。 


的 格式 ， 


外 HMTT3 上 还 包含 多 种 配置 寄存 器 ， 用户 在 启动 HMTT3 之 前 可 以 将 配置 信息 写 到 这 昌 
指导 HMTT3 正确 工作 。 比 如 用 户 可 以 指定 只 监控 某 些 特殊 段 的 物理 内 存 的 访问 〈 如 只 监控 


IGB 到 2GB 之 间 的 访 存 ), 灵活 指定 用 于 特殊 标签 同步 访 存 的 地 址 空间 ,指定 接收 机 器 上 用 
于 存放 访 存 序列 的 物理 内 存 起 始 地 址 和 大 小 等 。 
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ike) 
Í ZR 


寄存 器 文件 ] 


统计 单元 


PCle 硬 核 


PCle 时 钟 单元 


而 


2. HMTT3 内 部 硬件 模块 


3 ”函数 级 访 存 行为 分 析 


基于 人 硬件 侦 听 的 HMTT 卡 无 法 直接 获取 程序 执行 过 程 
硬件 侦 听 与 高 层 事件 的 语义 鸿沟 问题 (Semantic Gap)， 如 图 3 所 示 。 图 3 (a) 为 HMTT 获 


取 的 一 个 访 存 地 址 序列 , 但 不 包含 任何 程序 执行 的 高 层 语义 信息 。 从 程序 员 的 角度 来 看 ， 
个 程序 (或 进程 ) 的 执行 过 程 可 以 看 作 是 高 层 事件 的 执行 序列 ， 比 如 函数 调用 序列 、 基 本 块 


mE 


以 


的 高 层 事件 流 信息 ， 这 被 称 为 


执行 序列 ,甚至 精细 到 指令 执行 
同 的 阶段 ， 比 如 进入 一 个 函数 ， 


序 往往 具有 不 同 的 访 存 行为 特征 , 如 果 能 够 将 底层 硬件 获取 的 访 存 地 址 流 与 高 层 事 件 序列 进 


从 函数 返回 等 ， 如 图 3 (b) 所 示 。 由 于 在 不 同 的 阶段 ， 


序列 。 按 照 高 层 事件 流 可 以 将 一 个 进程 的 执行 过 程 划 分 成 不 


程 


行 同 步 并 关联 起 来 , 那么 我 们 就 


i 可 以 在 更 细 粒 度 上 分 析 程 序 在 不 同 阶 段 的 访 存 行为 ， 比 妇 


PAA, "ÉD 3 (c〉 所 示 ， 从 而 对 那些 导致 大 量 不 规则 访 存 的 函数 进行 重点 优化 。 


为 了 解决 上 述 函数 级 别 语义 鸿沟 问题 , 本 文 提出 了 一 利 


合 的 方法 ， 称 之 为 HMTT_FBI 


| 


条 额外 的 特殊 标签 访 存 指令 。 


(Functional level Binary Instrumentation toolkit for HMTT 


这 些 标 签 访 存 与 程序 正常 的 访 存 都 将 被 HMTT 硬件 侦 听 


和 基于 二 进 制 插 桩 技术 的 软 硬 件 结 


IÆ 


)。 


通过 直接 修改 内 存 中 的 进程 映像 (process image)， 在 目标 函数 的 入 口 及 出 口 位 置 分 别 插入 


到 。 


A 


? First In First Out， 先 进 先 出 


通过 解析 不 同 标签 访 存 与 函数 入 口 、 出 口 之 间 的 映射 关系 ,就 能 够 将 底层 的 访 存 踪 迹 与 高 层 


一 种 低 开销 软 硬 件 混合 的 细 粒 度 内 存 行 为 分 析 方 法 


的 函数 执行 序列 关联 起 来 ， 从 而 实现 对 访 存 踪迹 的 函数 级 别 分 割 。 
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用 时 间 流 


符号 口 O@ 国 为 代表 函数 执行 时 间 的 特殊 标签 (tag) 访 存 


ES 


图 3。 访 存 地 址 序列 与 高 层 事件 的 语义 鸿沟 问题 


我 们 通过 Linux 系统 提供 的 ptrace API 来 获取 对 进程 的 控制 权 。 插 桩 实现 是 在 每 个 插 桩 
点 把 原 有 指令 替换 为 一 条 跳 转 指令 , 把 对 目标 函数 的 调用 指令 选 为 插 桩 点 ,这 样 能 够 避免 由 
于 函数 存在 多 个 可 能 出 口 点 带 来 的 复杂 处 理 。 插 桩 代码 执行 完 后 , 通过 一 条 跳 转 指令 将 执行 
流 跳 转 回 到 原来 的 调用 位 置 。 进 程 除了 在 执行 到 每 个 播 桩 点 时 额外 增加 的 两 次 跳 转 以 及 执行 
插 桩 代码 本 身 的 开销 外 ， 没 有 引入 其 他 的 开销 。 而 传统 的 动态 插 桩 工具 ， 如 Pin!” 
DynamoRIOM] 等 ， 则 需要 在 程序 的 整个 执行 过 程 中 完全 控制 进程 ， 即 时 编译 Gust in time 
compilation) 生成 包含 插 桩 代码 的 代码 块 。 这 种 实现 不 仅 导 致 比较 严重 的 性 能 开销 问题 ， 还 
会 引入 比较 严重 的 访 存 干扰 。 


3.1 HMTT_FBI 实现 
3.1.1 整体 框架 


图 4 HMTT_FBI 的 整体 框架 。 这 里 涉及 两 个 进程 :一 个 运行 特定 的 应 用 程序 ， 称 为 
被 监控 进程 ; 个 负责 分 析 被 监控 进程 ， 并 向 被 监控 进程 插 桩 代码 ， 称 为 控制 进程 。 控制 
进程 通过 ptrace API 获取 对 被 监控 进程 的 控制 ,支持 两 种 模式 :1) 控制 进程 创建 被 监控 进 
FE, 这 样 允许 控制 进程 从 被 监控 进程 执行 的 最 开始 位 置 就 对 其 进行 插 桩 ， 从 而 能 够 收集 到 被 
监控 进程 的 完整 信息 ; (2) 被 监控 进程 正在 运行 中 ， 控 制 进程 附着 Cattach) 到 被 监控 进程 
上 ,然后 对 其 进行 插 桩 , 这 样 允许 我 们 灵活 设置 只 对 感 兴趣 的 运行 区 间 进 行 插 桩 并 收集 信息 ， 
而 不 需要 重新 启动 进程 。 这 对 于 监测 那些 长 期 运行 的 进程 是 很 有 好 处 的 。 


控制 进程 主要 包括 4 个 模块 : 控制 模块 、 反 汇编 分 析 模 块 、ELF 解析 模块 和 ptrace 模块 ， 
如 图 4 所 示 。 其中, 控制 模块 向 用 户 提供 交互 式 操作 接口 , 用 户 可 以 在 这 里 指定 附着 Cattach ) 
到 被 监控 进程 上 ， 获 取 被 监控 进程 的 状态 信息 (如 寄存 器 的 值 、 某 段 地 址 空间 内 的 值 )， 对 
被 监控 进程 进行 代码 插 桩 ， 恢复 被 监控 进程 的 进程 映像 ， 从 被 监控 进程 断 开 (detach) 控制 。 


c— 


3 Executable and Linking Format， 可 执行 与 可 链接 格式 
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这 些 都 是 通过 ptrace 模块 提供 的 接口 实现 的 。ptrace 模块 对 Linux 提供 的 ptrace API 进行 面 
向 对 象 的 封装 ， 使 用 户 能 够 更 方便 地 对 被 监控 进程 进行 操作 。ELF 解析 模块 负责 分 析 被 监控 
进程 的 ELEFE 格式 的 可 执行 文件 ,获取 被 监控 进程 代码 段 的 位 置 和 大 小 , 通过 分 析 ELF 3X 
件 内 的 符号 表 〈.sym) 能 够 进一步 得 到 每 个 函数 的 名 称 、 入 口 地 址 及 代码 大 小 ， 进 而 获取 每 
个 函数 的 二 进 制 代 码 。 反 汇编 分 析 模 块 中 则 负责 对 得 到 的 目标 函数 的 二 进 制 代码 进行 反 汇 
， 主 要 分 析 函 数 体 内 每 条 指令 的 类 型 、 位 置 (指令 计数 器 值 )、 大 小 、 操 作 数 等 ， 判 断 一 
条 指令 是 否 为 函数 调用 指令 或 分 文 指令 ; 如 果 是 , 进一步 分 析 得 到 函数 调用 指令 的 目标 函数 
地 址 或 分 文 指令 的 目标 地 址 。 这 些 信 息 将 被 用 于 后 面 对 被 监控 进程 的 代码 播 桩 。 反 汇编 分 析 
模块 基于 一 个 开源 的 反 汇编 工具 udis8609， 支 持 x86 和 x86 64 指令 集 。 


为 了 存放 插 桩 代码 ， 需 要 在 被 监控 进程 


Ei 


控制 进程 一 > 创建 或 附着 一 > 被 监控 进程 


的 地 址 空间 内 额外 开辟 一 块 空间 ， 这 通过 往 
被 监控 进程 的 代码 段 内 临时 插 桩 一 自 控制 模块 
mmap( ) 调用 代码 来 实现 。 在 插 桩 这 段 代 码 之 
前 需要 先 将 代码 段 内 原来 的 内 容 取 回 保存 ， 
还 需要 保护 进程 的 寄存 器 状态 ， 当 这 段 代 码 m 
执行 完毕 ， 控 制 权 将 重新 回 到 控制 进程 ， 之 
后 恢复 被 监控 进程 的 代码 段 内 容 和 寄存 器 状 Ptrace 模 块 
态 。 以 同样 的 方式 ， 将 系统 的 一 个 虚拟 设备 

ioremap 映射 到 被 监控 进程 的 地 址 空间 内 ， 图 4. HMTT FBI 的 整体 框架 

这 段 空 间 将 被 用 于 作为 对 应 高 层 函 数 事件 的 


标签 访 存 ， 其 特点 是 对 其 访问 不 经 过 高 速 缓存 ， 这 将 在 第 3.1.3 WHENA. B3 中 被 监控 
进程 的 两 个 阴影 较 深部 分 是 我 们 额外 再 分 配 的 两 段 地 址 空间 ， 而 阴影 较 浅 (代码 段 〉 部 分 表 
示 需 要 对 其 进行 修改 〈 通 过 二 进 制 插 桩 实现 )， 和 白色 的 其 它 部 分 则 表示 不 需要 做 任何 改动 。 


3.1.2 二 进 制 插 桩 实现 


传统 的 函数 级 别 插 桩 都 只 提供 对 函数 的 入 口 进 行 插 桩 的 接口 "中 。 由 于 函数 的 入 口 是 
唯一 的 , 通过 将 函数 体内 的 前 几 条 指令 蔡 换 成 跳 转 指令 就 可 以 将 控制 转 到 插 桩 代码 区 域 ， 从 
而 实现 收集 所 有 与 函数 入 口 相关 的 信息 《比如 统计 函数 被 调用 次 数 )。 而 函数 的 出 口 往往 不 
是 唯一 的 ， 可 能 有 多 个 。 多 个 可 能 的 函数 出 口 使 得 直接 插 桩 非常 困难 ， 通 过 复杂 的 指令 流 分 
析 也 许可 以 得 到 所 有 的 出 口 位 置 ， 然 后 分 别 在 这 些 点 上 进行 代码 插 桩 。 这 样 不 仅 实现 复杂 ， 
而 且 插 桩 的 开销 会 变 得 很 大 。 因 此 我 们 不 直接 在 目标 函数 体内 进行 插 桩 。 相 反 ， 我 们 在 源头 
上 解决 问题 ， 选 择 目 标 函 数 的 调用 指令 作为 插 桩 点 ， 通 过 将 其 替换 为 无 条 件 跳 转 〈jmp ) fü 
S, 把 控制 转移 到 插 桩 代码 位 置 ， 然 后 将 目标 函数 调用 指令 重新 安排 到 插 桩 代码 区 域 ， 并 在 
该 调用 指令 的 上 方 和 下 方 分 别 安排 标签 访 存 指令 。 在 揪 桩 代码 区 域内 安排 标签 访 存 指令 不 会 
影响 原 程序 的 其 他 代码 ， 可 以 保证 程序 的 正确 执行 。 


对 函数 的 出 口 揪 桩 标签 访 存 指令 是 必须 的 。 这 是 因为 一 个 程序 中 函数 之 间 的 相互 调用 关 
系 往往 比较 复杂 , 如果 只 标记 出 函数 的 入 口 , 将 无 法 判断 下 一 个 函数 是 在 上 一 个 函数 体 之 内 
被 调用 , 还 是 在 上 一 个 函数 结束 之 后 被 调用 。 这样 就 无 法 实现 对 访 存 踪迹 以 函数 为 单位 进行 


op 
rl. 


图 5 演示 了 一 个 函数 调用 的 正常 执行 流程 。 当 执行 到 函数 调用 〈cal1) 指令 时 ， 函 数 
的 返回 地 址 〈 即 call 指令 的 下 一 条 指令 的 PC 值 ) 将 被 压 入 栈 顶 ， 然 后 转 到 函数 入 口 地 址 
往 下 执行 ， 待 函数 执行 到 返回 〈ret ) 指令 ， 根 据 之 前 放 入 栈 的 返回 地 址 ， 转 回 到 函数 的 调 
用 点 位 置 之 后 继续 执行 。 


一 种 低 开销 软 便 件 混合 的 细 粒 度 内 存 行为 分 析 方 法 


Trace foo 插 桩 代码 


函数 foo 入 口 
t 
Sous 进入 foo 
调用 foo 
/| "| 
NSES 


foo 函 数 体 


进入 foo 


调用 foo 函 数 


从 foo 返 回 


访 存 
trace foo 
函数 foo 出 口 
tag 访 存 
原 调 


跳 转 回 原 调用 
foo 函 数位 置 


图 5。 函数 正常 执行 流程 图 6. 对 目标 函数 进行 插 桩 后 的 执行 流程 


图 6 演示 了 插 桩 后 的 目标 函数 执行 流程 ,首先 目标 函数 的 调用 指令 已 被 蔡 换 成 一 条 无 条 
全 跳 转 指令 ， 将 控制 转移 到 对 应 的 插 桩 代码 区 域 。 在 这 里 ， 先 执行 函数 的 入 口 标签 访 存 ， 然 
后 重新 调用 目标 函数 ， 等 到 目标 函数 执行 完毕 ， 将 返回 到 这 个 新 的 调用 点 位 置 。 紧 接着 执行 
函数 的 出 口 标签 访 存 , 最 后 通过 一 条 无 条 件 跳 转 指令 将 控制 重新 转 回 到 原来 函数 的 调用 点 位 
署 。 在 对 函数 执行 额外 的 标签 访 存 之 前 需要 保护 进程 的 状态 ， 执 行 完 之 后 恢复 进程 的 状态 ， 
果 证 不 影响 进程 的 正确 执行 。 有 一 点 需要 注意 ， 由 于 此 时 新 的 函数 调用 指令 的 位 置 (PC {ED 
已 经 变化 ， 而 使 用 相对 侦 移 的 函数 调用 指令 是 根据 下 一 条 指令 的 PC 值 及 指令 内 提供 的 相对 
局 移 量 来 计算 目标 函数 地 址 ， 所 以 在 这 里 我 们 需要 重新 计算 相对 偏 移 量 ,以 指向 正确 的 目标 
函数 地 址 。 


3.1.3 标签 访 存 


由 于 现代 的 处 理 器 上 都 含有 2 级 或 3 级 的 高 速 缓存 , 用 于 缓存 最 近 访 问 过 的 数据 。 一 旦 
将 被 访问 的 数据 在 缓存 内 命中 , 这 个 访 存 请 求 将 不 会 被 发 送 到 内 存 系统 , 也 就 无 法 被 HMTT 
采集 到 。 由 于 标签 访 存 直接 对 应 到 高 层 函 数 入 口 或 出 口 事件 ,如果 由 于 缓存 命中 导致 标签 
访 存 无 法 被 HMTT 采集 到 ， 那 么 本 次 函数 高 层 事件 就 会 于 失 ， 这 样 对 访 存 踪迹 的 函数 级 别 
分 割 将 不 完整 甚至 出 错 。 


解决 这 个 问题 的 方法 就 是 保证 每 次 标签 访 存 都 不 经 过 缓存 ， 总 能 被 HMTT 监测 到 。 通 
过 修改 系统 的 grub. conf 文件 配置 保留 一 段 物理 内 存 地 址 空间 (对 操作 系统 不 可 见 )， 使 
用 ioremap 调用 将 保留 的 这 段 空 间 映 射 成 一 个 虚拟 设备 ， 并 将 其 属性 设置 为 不 经 过 绥 存 。 
然后 通过 ptrace 接口 ， 将 这 个 虚拟 设备 (命名 为 ioremap) 映射 到 被 监控 进程 的 地 址 空 
间 内 。 最 后 建立 这 段 ioremap 空间 到 不 同 函 数 入 口 及 出 口 标签 访 存 的 映射 ， 就 是 说 访问 这 
段 空 间 内 的 某 个 位 置 ， 将 代表 一 个 高 层 函数 事件 的 发 生 。 


使 用 ioremap 实现 的 好 处 主要 有 两 个 : CIO 对 这 上段 空间 的 访问 不 经 过 缓存 ， 总 能 被 
HMTT 采集 到 ， 不 会 “丢失 ” (2) 保留 的 物理 内 存 空间 对 操作 系统 是 不 可 见 的 ， 所 以 除了 
揪 桩 的 标签 访 存 外 ， 不 会 再 受到 其 他 的 访问 〈 如 操作 系统 )， 避 免 受到 干扰 ， 保 证 采集 到 的 
标签 访 存 的 正确 性 和 唯一 性 。 


3.2 实验 
3.2.1 实验 方法 


本 文 所 用 的 实验 3 
每 个 插 模 包含 4 个 处 理 器 核 (core)， 工 作 频率 为 2 GHZ。 每 个 插 模 上 的 高 速 缓存 为 3 
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成 一 个 raid 0 阵列 。 
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使 


Bn 


55 10 15 


BS 


信息 技术 快报 


Information Technology Letter 


FE 台 是 英特尔 至 强 系 列 E5504 服务 器 ， 包 含 两 个 处 到 


Vol.10 No.5 
Sep. 2012 


EE 器 插 档 (socket)， 


ELE 
Ra 


L1,L2 为 每 个 核 私 有 ,Ll 的 指令 缓存 和 数据 缓存 都 是 32KB,L2 缓存 大 小 为 2536KB， 


内 的 4 个 核 
-800, 总 的 容量 为 4GB， 其 中 2GB 为 操作 系统 可 用 
配置 空间 及 ioremap 空间 。 读 写 (W/O) 系统 采用 10 个 1TB 的 磁盘 组 


dt 
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3.2.2 正确 性 验证 


H T u 


后 正确 


xk, Bw ru 
PRAG (2) 多 个 不 同 函数 之 间 相 互 调用 ; 
殊 标 签 访 存 的 踪迹 , 我 们 能 够 得 到 不 同 函数 之 间 的 相互 调 


数 。 实 验 结果 与 直接 对 程序 源 代码 的 分 析 结 果 是 完全 一 臻 的， 这样 就 验 训 


E HMTT FBI 对 进程 注入 插 桩 代码 


于 访 存 踪迹 都 是 大 文件 ， 文 件 系 统 选 上 
iozone 测试 程序 实测 的 
] CentOS 5.3， 内 核 为 Linux 2.6.32。 我 们 使 


TEA , 编译 器 ju 


A 


享 ， 大 小 是 8MB, 每 个 缓存 块 (cache line) 的 大 小 都 为 


E 间 ， 另 外 2GB 


1 He eui 


EE 


EE 


的 测试 程序 ， 这 些 程序 包括 : 


FH 


作 的 正确 性 。 


ZM 


进一步 ， 我 们 分 析 更 加 复杂 的 SPECCPU2006 内 的 几 个 程序 来 验证 。 
的 函数 个 数 较 多 ， 函 数 调用 关系 复杂 ， 我 们 只 验证 占 执 行 时 间 下 
被 调用 次 数 。 通 过 GNU II] gprof 工具 能 够 得 到 程序 中 每 个 函数 
次 数 。 然 后 与 通 ; 
HMTT 能 够 准 


确 


过 HMTT 访 存 踪迹 分 析 得 到 的 函数 调 
获取 433.milc 程序 的 函数 执行 事件 , 误差 都 在 2% 以 下 ， 


(3) 递归 函数 。 


j 关 系 图 


后 ， 能 够 在 每 次 函数 调用 之 前 及 函数 返回 
地 发 出 标签 访 存 ， 并 被 HMTT 采集 ， 进 一 步 分 析 并 得 到 包含 函数 执行 事件 的 访 存 踩 
(1) 调用 固定 次 数 的 
通过 分 析 HMTT 采集 
Ff HMTT FBI T 


对 大 文件 读 写 性 能 最 优 的 
可 达 700MB/s 以 上 。 实 验 平台 的 操作 系统 
用 的 测试 程序 是 SPEC CPU2006 中 的 访 存 密 
用 gee 4.1.2 版 本 ， 使 用 默认 的 -02 优化 选项 。 每 个 测试 程序 都 使 用 ref 
FE 实验 结果 的 可 靠 性 。 
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到 的 包含 特 


| 于 这 些 程序 包含 


分 比 最 多 


的 前 10 个 函数 的 
的 执行 时 间 百 分 比 和 被 调用 
次 数 进行 对 比 。 以 433 .milc 为 例 ， 


rni 


i 差 最 大 的 


是 mult_su3_mat_vec 函数 ，HMTT 比 gprof 少 了 1.90%。 对 其 他 几 个 程序 的 误差 也 都 在 


2% 以 下 ， 这 验 说 


3.2.3 开销 分 析 实 验 
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HMTT 


FBI 的 运行 ] 


图 7 说 明了 HMTT FBI 各 个 功 
程序 ， 这 里 列 


E 了 本 方法 的 正确 性 。 


H 的 是 各 模块 


反 汇 编 分 析 


0.051%, 所 以 对 原 程 序 几 乎 不 引入 
为 416.gamess 程序 包含 的 函数 多 达 2840， 而 日 
FE 需要 解析 的 工作 量 就 比较 大 ， 开 销 所 占 


入 额外 搬 桩 代码 导致 的 开销 。 插 桩 代码 的 运行 开销 包括 
次 无 条 件 跳 转 (一 次 从 函数 调用 点 


这 是 因 
2621.47, XË 
FE EVE In] ERE AN fa 


分 : 第 


于 销 是 很 低 的 。 
占 0.02896; 向 进程 映像 内 插 桩 代码 占 0.015%; 整个 HMTT FBI 的 运行 


能 模块 的 运行 开销 ， 我 们 使 
开销 


占 每 个 程序 原始 运行 时 间 的 下 


个 开销 是 插入 


的 跳 转 指令 ， 


跳 转 到 插 桩 代码 区 ， 一 次 从 插 桩 代码 
Ro 导致 一 定 的 性 能 下 
的 入 口 和 出 口 各 1 次 )， 


降 ; 


开销 : 其 中 


因为 我 们 这 里 使 用 两 


中 解析 ELF 的 平均 开销 


百分比 也 就 比较 大 。 


SPECCPU2006 中 的 访 存 
分 比 。 可 以 看 出 ， 
占 原 程序 运行 时 间 的 0.00896; 
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开销 最 大 的 是 416 .gamess 程序 ,达到 0.417%， 
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原 执行 流 )， 每 次 跳 转 都 会 清 


(免费 ) 软件 


发 写作 计划 


因为 每 次 访 存 都 需要 上 百 个 处 型 


空 处 理 器 流水 


第 二 个 开销 是 插入 的 额外 不 经 过 缓存 的 2 次 标签 访 存 (目标 函数 
器 周期 ， 所 以 标签 访 存 的 开销 是 比 


较 大 的 ， 如 果 程 序 本 身 的 访 存 比较 


少 ,额外 的 标签 访 存 将 导致 明显 的 性 


能 下 降 。 


为 了 分 别 评估 这 两 个 开销 带 
的 影响 , 我 们 设计 了 两 利 


E) 


来 


种 是 我 们 在 插 桩 代码 区 内 插入 空 指 


令 (nop)， 由 于 


空 指令 基本 没有 
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销 ,这样 我 们 就 能 评估 由 于 跳 转 引入 


的 开销 。 


程序 ， 达到 2.91. 


的 开销 ; 第 二 种 就 是 插入 完整 的 标签 
访 存 指令 ,这 样 得 到 跳 转 加 标签 访 存 


图 8 说 明了 这 两 种 开销 ,这 里 将 
运行 时 间 归 一 化 到 原 程 序 的 运行 时 


司 。 可 以 看 到 插入 跳 转 指令 引起 的 
开销 比较 小 ， 平 均 为 1.042， 也 就 是 导致 4.2% 的 开销 增加 ， 说 明 使 月 


其 中 开销 最 大 的 是 450. soplex 
由 此 可 见 主 要 的 


开销 是 由 不 经 过 缓存 的 标签 访 存 


引起 的 。 一 个 可 能 的 改进 是 , 通过 


准确 记录 每 个 函 


数 的 入 口 和 出 


的 执行 时 间 并 与 


访 存 踪迹 包含 的 


访 存 ， 降 低 开 销 。 


3.2.4 与 Pin 开销 对 比 


时 间 信 息 进行 同步 , 从 而 消除 标签 


使 用 Pin《〈 见 注 1) 纯 软件 方式 


也 能 获取 进程 执行 过 程 中 的 访 存 虚 
拟 地 址 踪迹 。Pin 的 实现 需要 在 指令 


级 进行 插 桩 ， 分 析 每 条 
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要 访 存 ， 如 果 有 访 存 ， 就 将 访 存 的 


地 址 记录 下 来 ， 并 保存 到 文件 中 。 


这 里 我 们 采用 两 种 方案 : 第 一 种 是 


先 将 访 存 地 址 踪迹 写 到 内 存 组 六 


从 内 存 组 ; 


会 引入 额外 的 读 
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P pe 
中 ， 同 时 再 开 一 个 进程 ， 专 门 负责 
区 中 将 访 存 地 址 踪迹 写 
到 文件 中 。 我 们 采用 多 个 缓冲 区 策 
各 ， 保 证 写 文件 进程 对 Pin 进程 不 
开销， 这 样 Pin 
进程 只 引入 将 踪迹 写 入 内 存 的 开 


一 种 低 开 销 软 便 件 混合 的 细 粒 度 内 存 行为 分 析 方 法 
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图 7. HMTT_FBI 各 模块 运行 开销 
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图 9. 使 用 Pin 获取 访 存 踪迹 的 开销 


销 ， 称 这 种 方法 为 Pin 写 到 内 存 (Pin + Mem); 第 二 种 也 是 首先 将 访 存 地 址 踪迹 写 到 一 个 内 


FRW, SIRIK, P 


写 入 到 文件 中 ， 这 样 将 引入 读 写 


和 ， 称 为 Pin 写 到 文件 
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用 的 读 写 系统 为 10 个 磁盘 组 成 的 raid 0 阵列 ， 写 带宽 可 达 


4 ”对 象 级 访 存 行为 分 析 


一 个 对 象 代表 数据 存储 及 访问 的 
基本 单元 , 比如 一 个 包含 多 个 相同 


元 素 的 数组 , 或 一 个 包含 不 同类 型 成 员 
的 结构 体 ,实际 上 对 于 程序 
A, WA 


律 访 存 序列 中 分 离 出 来 。 图 10 18 
象 级 访 存 序列 分 
为 系统 内 不 同 进程 
列 ， 为 不 规律 的 访 存 模式 ; 下 一 步 中 我 
I 按照 每 个 进程 进行 
的 访 存 显得 有 些 规 
PF 多 个 对 象 的 混合 
程 的 访 存 序 列 ， 按 每 个 对 象 进行 划分 ， 这 样 对 象 级 的 访 存 模 式 就 


们 将 访 存 地 址 


律 了 ,但 是 还 是 


27 
划分 , 可 以 看 到 这 
进程 
访 存 序列 ， 最 后 ， 对 每 个 进 
比较 规律 。 获 取 对 象 级 的 规律 访 存 行为 , 可 | 


E 够 将 那些 


离 的 过 程 。 
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关 的 格式 , 这 样 外 
存 模式 的 对 象 从 整个 程序 的 混合 无 规 
货 示 对 
初始 获取 的 
的 混合 访 存 地 址 序 


有 规律 访 
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I 果 读 写 系统 配置 比较 差 的 话 ，Pin 写 到 文件 的 性 能 将 更 差 。 


用 Pin 获取 访 存 踪迹 的 运行 时 间 较 长 , 我 们 只 选取 
图 9 列 出 了 Pin 获取 访 存 踊 迹 相 对 于 原 程序 运行 
开销 明显 比 软 硬 件 结合 实现 的 HMTT_FBI 开销 大 , 对 于 Pin SAA, 其 平均 开 
的 10.4 fi; ifi Pin 写 到 文件 则 为 原 程序 的 22.53 倍 。 


中 8 个 访 存 密集 型 测试 程序 
时 间 的 归 一 化 开销 。 可 以 看 至 


ALL 


每 个 对 象 访 存 序列 


每 个 进程 访 存 序列 


规律 
获取 规律 对 象 访 存 行为 模式 的 过 程 


图 10. 


] 于 多 种 优化 , 如 : 指导 对 象 级 的 预 取 (Prefetch )， 


对 象 级 数据 分 配 优化 ， 对 象 级 高 速 缓存 划分 〈Cache Partition). 


4.1 缓存 实现 
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硬件 混 


模块 的 


ERT, 我 们 首先 简 
的 对 象 级 访 存 
的 框架 , PA Ja EET Hall SPS 
EKIL. 
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11 演示 了 软 硬 伯 
象 级 访 存 行为 分 析 的 框架 , 3 
括 3 个 模块 : WA 
HMTT 访 存 信号 


CORR, 


方面 ， 我 们 使 用 


Ws 42x 3 
监控 3 


混合 的 对 
EH, 


省 


收集 发 送 到 DRAM 内 存 系统 的 所 


有 访 存 请 求 物 到 


地 址 序列 ; 软件 方 


面 ， 我 们 修改 Linux 内 核 的 实现 ， 


监控 所 有 对 进程 页 表 的 更 新 操作 ,并 将 更 新 操作 序列 导出 来 。 这些 更 新 序列 将 被 用 


图 11. 


物理 访 ”导出 页 表 
存 地 址 


软 人 硬件 混合 


的 对 象 级 访 存 行为 分 析 的 框架 
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一 种 低 开 销 软 便 件 混合 的 细 粒 度 内 存 行为 分 析 方 法 


构 进程 页 表 。 每 个 访 存 请 求 的 虚拟 地 址 通过 使 用 HMTT 获取 的 对 应 物理 地 址 查询 重 构 进程 


页 表 而 得 到 。 进一步, 我 们 提供 一 个 软件 工具 来 监控 并 获取 进程 执行 过 程 中 的 所 有 动态 分 丁 


进行 细 粒 度 划 分 。 
4.1.1 导出 页 表 踪 迹 


对 象 的 虚拟 地 址 空间 信息 《对 象 起 始 地 址 、 大 小 )。 通 过 比较 访 存 虚拟 地 址 是 否 处 于 某 个 对 
象 的 虚 地 址 空间 , 我 们 能 够 识别 出 每 个 对 象 发 出 的 访 存 请 求 序列 , 即将 访 存 地 址 序列 按 对 象 


从 2.6.11 版 本 开始 ，Linux 内 核 支持 4 层 基数 树 (Radix Tree) RRK, ENI 
别 是 : 页 全 局 目录 (Page Global Directory, PGD )、 页 上 层 目 录 (Page Upper Directory, PUD). 
页 中 间 目 录 (Page Middle Directory, PMD) 和 页 表 条 目 〈Page Table Entry, PTE)。 在 Linux 


地 址 划分 为 《9,9,9,9,12)， 如 图 12 


中 ， 线 性 地 址 被 分 成 5 个 部 分 ， 对 于 x86-64 结构 ， 常 用 的 页 面 (Page) 大 小 为 4KB， 所 以 


Wim. 


图 12. 


每 个 页 目录 项 包含 下 一 层 页 目录 的 物理 页 面 号 (Page Frame Number, pfn)， 而 每 个 页 表 


X86-64 线性 地 址 的 划分 


条 目 则 包含 存放 实际 数据 的 物理 页 面 号 以 及 页 面 的 一 些 性 质 〈 如 只 读 、 大 小 等 )。 由 于 页 表 


本 身 也 是 直接 存放 在 内 存 中 , 实际 上 可 以 将 物理 内 存 的 页 面 划分 成 两 类 : 存放 实际 数据 的 页 


面 ( 称 为 数据 页 ) 和 存放 页 表 本 身 的 页 面 〈 成 为 页 表 页 )。 当 由 于 执行 加 载 (load) 或 存储 
(store) 指令 ， 而 最 后 一 级 缓存 发 生 缺 失 导 致 的 访 存 ， 将 被 发 送 到 数据 页 。 而 最 后 一 级 旁 
路 转换 缓冲 缺失 将 导致 至 多 4 次 对 页 表 页 的 访 存 (成 为 page memory walks)， 以 取 回 请 求 虚 
拟 地 址 对 应 的 物理 地 址 。HMTT 能 够 监控 系统 中 所 有 的 访 存 请 求 ， 当 HMTT 监控 到 一 个 对 


页 表 页 的 访 存 请 求 , 就 将 其 识别 为 
求 则 被 识别 为 正常 的 数据 访 存 。 


图 13 为 导出 页 表 模 块 的 总 体 结构 。 
我 们 首先 修改 Linux 内 核 中 更 新 页 表 的 函 
数 , 增加 将 更 新 页 表 操作 信息 导出 到 内 核 
空间 中 的 页 表 绥 冲 区 中 的 操作 。 我 们 通过 


| 于 旁 路 转换 缓冲 缺失 导致 的 页 表 访 问 ,， 而 其 它 的 访 存 请 


实现 一 个 内 核 模 块 来 提供 对 页 表 缓 冲 区 
的 操作 接口 。 为 了 实现 页 表 踪 迹 和 访 存 踪 


T 


迹 的 同步 ， 在 监控 到 页 表 更 新 操作 的 时 图 13. 导出 页 表 模 块 的 总 体 结构 

候 ， 还 需要 向 HMTT 发 送 一 个 特殊 的 标 

签 同步 访 存 。 为 了 灵活 控制 ， 我 们 还 在 这 个 内 核 模 块 提 供 一 个 控制 是 否 启 动 HMTT 监控 和 
页 表 监 控 的 接口 。 而 用 户 级 的 控制 模块 进程 通过 向 内 核 模块 发 送 启动 (Start) 和 停止 


(Stop) 信号 来 实现 控制 


， 这 样 能 够 实现 只 对 我 们 感 兴趣 的 代码 部 分 进行 监控 ， 从 而 降低 


收集 的 访 存 踪迹 数据 量 。 最 后 用 户 级 的 导出 模块 (Dump Component) 则 负责 定期 将 页 表 绥 


冲 区 内 页 表 更 新 踪迹 导出 到 文件 ， 


保存 。 


其 后 要 解析 访 存 踪迹 ， 这 时 HMTT 收集 到 的 踪迹 除了 包含 进程 正常 的 访 存 物理 地 址 踪 


迹 外 ， 还 包含 用 于 同步 的 标签 访 存 踪迹 ， 如 图 14 Bron. 


图 中 浅 色 方块 代表 正常 访 存 踪迹 , 黑色 代表 同步 标签 访 存 踪迹 , 网 纹 代表 发 送 机 收集 到 


的 内 核 〈 页 表 ) 更 新 踪迹 。 解 析 程 序 的 工作 流程 如 下 : 


zu 10 2558 5 t 


信息 技术 快报 Vol.10 No.5 
Information Technology Letter Sep. 2012 


(0). 从 接收 机 得 到 的 页 表 踪迹 文件 中 ， 读 入 监控 进程 (指定 pid?) 的 初始 页 表 踪 迹 ， 建 


(1). 


(2). 


(3). 


(4). 


(5). 


立 初始 页 表 。 


从 踪迹 文件 中 读 出 一 条 踪迹 ， 解 析 得 到 物理 地 址 、 时 间 截 信息 等 。 


通过 查看 物理 地 址 是 否 
落 在 同步 标签 内 存 区 域 
判断 得 到 的 物理 地 址 是 
和 否 为 同步 标签 访 存 ， 如 
果 是 ， 进 入 第 G) 步 ， 
否则 进入 第 (4) zb. 


解析 到 一 条 同步 标签 访 
存 ， 从 发 送 机 收集 到 的 


页 表 踪 迹 文 件 中 读 入 下 E 


ARR ERE, WOE 


据 踪 迹 的 类 型 和 虚实 页 
面 号 对 页 表 进 行 相应 的 
更 新 操作 ， 进 入 第 (5) 


IE 
LV o 


解析 到 正常 访 存 踪迹 ， 
利用 物理 地 址 去 查询 


Eo 
内 存 踪迹 分 析 器 
取得 下 一 
条 踪迹 

正常 内 存 踪迹 


J 页 表 踪 迹 


用 物理 访 存 
地 址 从 反 向 
页 表 得 出 虚 
拟 访 存 地 址 


图 14. HMTT 解析 访 存 踪迹 和 页 表 踪 迹 的 流程 


当前 的 页 表 ， 得 到 对 应 的 进程 pid 和 虚拟 地 址 信息 。 进 入 第 G) b. 


如 果 读 指 针 还 没有 达到 踪迹 文件 末尾 ， 向 前 移动 S 字 节 ， 准 备 读 取 下 一 条 踪迹 ， 
回 到 第 (1〉; 否则 解析 踪迹 完毕 ， 输 出 统计 分 析 信 息 ， 退 出 解析 程序 。 


解析 程序 需要 维护 进程 的 页 表 , 这 里 的 重 构 页 表 比 较 特 殊 的 地 方 是 : 我 们 通过 物理 地 址 


来 反 查 和 


表 (Reverse Page Table). 
成 一 个 链表 ， 如 图 15 所 示 。 


的 进程 


导 到 对 应 的 虚拟 地 址 ， 等 于 以 物理 地 址 (页面 号 ) 为 索引 ， 所 以 我 们 将 其 称 为 反 向 页 


每 个 反 向 页 表 项 包含 


进程 的 标识 符 pid 信息 和 
对 应 在 这 个 进程 地 址 空间 
内 的 虚拟 地 址 。 解 析 程 序 


得 到 物 ] 


EH 


里 地 址 后 ， 计 算得 


到 物理 页 面 号 ， 以 物理 页 
面 号 索引 反 向 页 表 ， 再 依 


次 遍历 链表 直到 页 表 项 内 
pid 为 被 监听 进程 的 pid 为 


止 。 为 了 提高 搜索 反 向 页 
表 的 速度 ， 可 以 将 共享 物 
理 页 面 的 多 个 页 表 项 组 织 


于 同一 个 物理 页 面 可 能 被 多 个 进程 共享 ， 因 此 我 们 将 这 些 共享 


图 15。 重 构 的 进程 反 辐 页 表 


以 物理 页 面 号 为 索引 ， 共 享 同一 物理 页 面 的 多 个 进程 串 成 链表 


成 AVL 树 〈 自 平衡 二 又 查 找 树 )。 
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一 种 低 


销 软 硬件 混合 的 细 粒 度 内 存 行 为 分 析 方 法 


4.1.2 导出 对 象 虚拟 地 址 空间 信息 


在 一 个 程序 ! 


统 中 为 ELF 格式 ) 的 符号 表 
系统 提供 的 LD_PRELOAD 环境 变量 来 
及 内 存 释 放 free0 函 数 ， 将 动态 分 配对 象 的 起 始 虚 拟 地 二 
的 程序 ,我们 可 以 进一步 将 对 象 具 体 对 应 到 程序 ， 
能 瓶颈 的 关键 变量 。 对 于 没有 源码 的 程序 , 我 们 可 以 结合 程 
来 定位 关键 对 象 所 处 的 代码 段位 置 。 


访 存 踪迹 能 够 扩展 成 如 


<paddr, r/w, time-stamp, 


， 包 含 两 种 类 型 的 对 象 : 被 分 配 在 数据 段 的 静 
态 分 配 在 堆 Cheap) 上 的 动态 对 象 。 对 于 静态 对 象 ， 可 以 通过 分 析 可 执行 文件 〈 在 
获取 它 的 起 始 虚 拟 地 址 和 大 小 。 对 于 动态 对 象 ， 我 们 通过 Linux 
EE 载 动 态 内 存 分 配 的 malloc(, calloc0 等 函数 ， 以 
上 和 大 小 记录 下 来 。 对 于 提供 


态 对 象 和 程序 运行 过 程 中 动 


Linux 系 


源码 


的 主要 2 


下 的 格式 : 


pid, vaddr, object, page-walk> 


其 中 ，paddr 代表 访 存 物理 


量 ， 从 而 能 够 识别 出 导致 访 存 性 
序 运 行 过 程 中 的 函数 调用 栈 信息 


Eli, rw 标识 读 写 请 求 ，time-stamp 为 访 存 到 达 的 时 间 戳 信 
息 ，pid 代表 发 出 本 访 存 请 求 的 进程 标识 ，vaddr 为 访 存 虚拟 地 址 ，object 为 导致 本 次 访 存 的 


对 象 标识 ，page-walk 代表 本 次 访 存 是 否 为 劳 路 转换 缓冲 缺失 导致 的 页 表 访 存 。 因 此 获取 对 


象 级 访 存 序列 ， 能 用 于 : 
(1). 将 进程 访 存 序列 按 


对 象 进行 划分 ， 并 分 析 不 同 对 象 的 访 存 特征 ; 


(2). 


序 及 编译 器 优化 ; 


分 析 每 个 对 象 访 存量 占 总 的 访 存 请 求 的 百分比 ， 定 位 关键 对 象 ， 这 可 用 于 指导 程 


(3). 
4.2 实验 及 分 析 
ARUBA 


析 来 证 明 本 方法 的 有 效 性 。 
4.2.1 实验 准备 
AE 


分 析 每 个 对 象 导 致 的 页 表 访 存 的 百分比 ， 可 用 于 指导 旁 路 转换 组 ; 


我 们 的 实验 配置 , 然后 对 我 们 的 对 象 级 访 存 行为 分 析 进 行 正确 性 验证 
着 对 其 开销 进行 量化 分 析 ， 最 后 我 们 通过 对 宽度 优先 搜索 "测试 程序 的 详细 对 象 访 存 行为 分 


' 性 能 优化 。 


SEX 


J5 3.2.1 节 相 同 的 实验 平台 ， 不 同 的 是 在 这 里 我 们 只 保留 0.25GB 的 内 存 作为 


HMTT 配置 空间 和 页 表 绥 冲 区 。 因 
个 核 都 含有 私有 的 两 级 旁 路 转换 缓冲 ，L1 DTLB 含有 641 


于 2MB 页 面 ( 称 为 大 页 面 ， 


而 ， 系 统 可 用 的 实际 内 


存 空间 为 3.75GB。 处 理 器 上 的 每 


项 页 表 项 用 于 4KB 页 面 ，32 项 用 


huge-page)。 第 二 级 旁 路 转换 缓冲 含有 512 项 用 于 4KB WH, 


没有 用 于 2MB 大 页 面 的 页 表 项 。 实 验 用 
的 混合 版 MPIpthread 宽度 优先 图 


进行 64 次 宽度 优先 搜索 ， 这 64 个 起 始 顶 点 是 随机 选择 的 。! 


的 宽度 优先 搜索 进行 对 象 级 
先 搜索 ， 对 于 不 同 线程 数目 


4.2.2 正确 性 验证 


的 测试 程序 包括 Graph500 测试 程序 中 的 一 个 自 实现 
搜索 程序 09 和 pthread 版 本 的 PARSEC- 
度 优先 搜索 程序 默认 对 随机 生成 的 RMAT (Recursive MATrix) 无 尺度 图 


2.1 测试 程序 。 宽 
(Scale Free Graph) 


于 本 文具 对 单 节点 (node? 上 


访 存 行 为 分 析 , 即使 用 1 个 进程 带 多 个 线程 的 方式 来 运行 宽度 优 


我 们 分 别 运 行 3 次 取 平 均值 。 


$ Breadth-First-Search, BFS, J 


和 译 为 “广度 优先 搜索 ” 
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A 


SI 
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H Y rubo BUG FEAT A 2) PT IES 


XL. RE. 


程序 (micro-benchmark)。 这 个 程序 


JU 


AVE, 我们 首先 全 


分 配 5 个 数组 ， 
每 个 数组 的 大 小 为 256MB。 在 使 用 memset HET Maa RU 


TH 
DLT 


Vol.1 


0 No.5 


Sep. 2012 


个 具有 


人 让 
E 


分 别 命名 为 


a0、 


en 


的 微 测试 
、a2、a3 和 a4, 


ania antes 


物理 


页 面 )， 


我 们 开 5 个 pthread 线程 并 行 分 别 对 这 5 个 数组 (可 以 看 作 是 对 象 ) 进 行 不 同 读 写 比例 及 模 


式 的 访问 ， 这 


a2: 2/4 为 读 访 问 ， 


AME 
EA 


a4: 全 部 为 写 


我 们 设置 访问 


Wil. I" 


ix H 


而 发 送 访 存 请 求 ,对 于 256MB XC NISI 


EJ) 


里 我 们 设置 访问 步 长 为 64 Byte C1 个 缓存 块 大 小 ): 


a0: 全 部 为 只 读 访 问 ， 正 向 遍历 (从 前 分 
al: 3/4 为 读 访问 ，1/4 写 访问 ， 正 向 

2/4 为 写 访问 ， 正 问 
a3: 1/4 为 读 访 问 ，3/4 为 写 访问 ， 反 向 (从 后 往 前 ) 


于 最 后 


这 里 需要 注意 的 是 ， 


对 象 ” 读 访 存 BUF WR KE 
a0 4,194,370 0 40 0% 
al 4,194,310 1,048,576 4:1 0% 
a2 4,194,369 2,096,927 4:2 0% 
a3 4,194,303 3,087,379 4:29 2% 
a4 4,194,436 4,149,586 4:3.96 1% 


表 2 为 对 微 测试 程序 的 对 
看 到 ， 每 个 数组 都 大 约 发 出 4 M 个 
读 访 存 请 求 , 这 与 前 面 的 分 析 是 一 致 
的 。 对 于 数组 a0~a4， 每 个 数组 发 送 
的 写 访 存 请 求 分 别 大 约 为 0, 1M, 
2M, 3M, 4M， 其 中 数组 a3 的 误差 最 
KAKA 2%， 证 明 我 们 对 象 级 内 存 


行为 分 析 的 正确 性 。 进 一 步 图 16 演 
示 了 数组 a0 和 a4 的 完整 访 存 虚拟 地 


址 序列 ， 可 以 看 到 数组 a0 为 从 前 往 


后 遍历 , 而 数组 a4 为 从 后 往 前 遍历 。 


4.2.3 开销 分 析 
在 本 小 节 中 ， 


运行 开销 。 


级 缓存 使 
表 2. 微 测 试 程序 的 访 存 分 析 结 果 


pols pus 


H E] 


先 


到 对 应 的 缓存 块 " 


步 长 为 64B， 保 证 每 次 访问 都 落 在 不 同 的 缓存 块 ， 从 而 导致 缓存 缺失 
H, 实际 的 访 存 个 数 为 256MB/64B= 4M = 4,194,304. 
策略 (Wirite-Back)， 所 以 当 一 


一 个 读 请 求 ， 


个 写 请 求 发 生 缓存 缺失 的 时 候 ， 最 后 
向 内 存 系统 发 送 


级 缓存 将 首 
各 要 访问 的 数据 放 
P, 然后 将 新 的 数据 写 入 到 缓存 块 ， 


等 到 这 个 缓存 块 被 替换 出 去 的 时 候 〈 这 时 缓存 块 状 


aA “Dirty”), 


每 个 写 访问 ， 都 将 导致 一 次 读 访 
那么 对 a0~a4 的 访问 实际 都 将 导致 4M 个 


TER, 


才 真正 发 送 写 访 存 请 求 。 所 以 对 于 
存 请 求 和 一 次 写 访 


读 访 存 请 求 和 不 同 个 数 的 写 访 存 i 


青 求 。 


--9360--- 
--.9350--- 
--9340--- 
--9330--- 
--9320--- 
--9310--- 
--9300--- 
--9290--- 
--.9280--- 


图 16. 


我 们 将 评测 对 象 级 访 存 行为 分 析 的 开销 ， 其 
核 中 导出 页 表 和 导出 进程 的 对 象 内 存 分 配 信息 。 这 里 


图 17 演示 了 对 象 级 访 存 分 析 的 了 


T$. 


中 3 个 条 柱 


象 级 访 存 行为 分 析 结 果 , 其 中 比率 指 读 写 访 存 请 


一 化 时 间 (109) 
※ 虚 拟 地 址 为 15 位 ， 坐标 范围 前 三 位 为 139 


对 象 a0 和 a4 的 访 存 踪迹 


中 开销 主要 包括 两 
我 们 对 所 有 程序 都 运行 


部 分 : 


求 比例 。 


可 以 


0 0.5 y^ 15 2.0 25 3.0 3.5 4.0 


在 内 


8 个 线程 来 评估 


别 代表 程序 的 原来 运行 时 间 , 加 上 在 内 核 


中 导出 页 表 信 


息 的 运行 时 间 ， 


以 及 


Origin, +dump_pt 和 +dump_obj 分 


in ES 


HX] Be 


内 存 分 配 信息 
主要 大 对 象 ， 这 里 我 们 


信息 ， 平 均 只 引入 约 0.66% 的 


一 种 低 


的 运行 时 间 ”。 因 


为 对 大 部 分 程序 而 言 ，3 
只 选择 监控 那些 大 小 超过 4KB 上 
中 命中 )。 可 以 看 到 ， 我 们 的 对 象 级 访 存 行为 分 析 只 引入 很 小 的 


销 软 硬件 混合 的 细 粒 度 内 存 行 为 分 析 方法 


销 ; 


中 


销 最 大 的 是 dedup 程序 , 导出 对 象 信 ， 


要 的 访 存 请 求 都 来 自 程序 中 的 几 个 


销 ， 


销 约 为 1 


的 对 象 〈 更 小 的 对 象 基本 都 能 在 缓存 
和 ， 对 于 内 核 中 导出 页 表 
而 导出 主要 对 象 的 内 存 分 配 信息 平均 
息 的 开销 达到 5.00%, 这 是 因 


60% 。 


为 对 于 dedup 程序 ， 


大 小 超过 4KB 的 对 象 数 量 达到 1,240,324 个 ， 这 么 多 数量 的 对 象 带 来 的 开销 自然 比较 大 。 


的 对 象 。 


对 于 这 种 情况 , 为 了 进 


TERES TIERE SH 


我 们 发 现实 际 上 这 种 对 内 存 


步 降 低 


的 干扰 是 很 小 的 , 这 是 因 
于 程序 正常 的 访 存 数据 量 而 言 是 极 小 的 。 比 如 对 于 8 线程 站 
收集 到 200GB 大 小 的 访 存 物理 地 址 踪迹 ， 但 是 只 收 到 6.2MB 的 页 表 踪 迹 和 26.8KB 的 


开销 , 我 们 可 以 选择 只 监控 那些 按 大 小 排列 居于 


前 10% 


页 表 信 息 和 对 象 内 存 分 配 信息 会 对 缓存 和 内 存 带 来 一 定 的 干扰 。 
为 导出 的 这 些 信息 的 数据 量 相对 
的 native 输入 集 的 canneal 程序 ， 


对 象 信 息 踪 迹 ， 同 样 地 ， 对 8 线程 的 streamcluster 程序 ， 收 到 104GB 的 访 存 物理 地 址 踪迹 ， 
而 页 表 踪 迹 为 6.7MB, 对 象 信息 踪迹 为 27.4KB , 可 见 对 程序 正常 访 存 引入 的 干扰 不 足 0.1%。 


和 B Origin dump pt & +dump_obj 
Æ 1.04 E 
1.02 i E 
下 LOOM ERE RE HER EREREREREREREHEREE 
T ggg HERES Hus RE LE B RE 
Seats ase RFs RSE 
c£eeoP2sesgeE x c 9 三 三 
Owe g a mc d 5 o 
93 S Sg Ó E 
5 B8 an) G 
& = D 
ca = D 
图 17. 对 象 级 访 存 行 为 分 析 的 开销 
4.2.4 Graph500 中 的 宽度 优先 搜索 程序 
Graph5000 是 一 个 比较 新 的 针对 大 规模 数据 密集 型 应 用 ， 尤 其 是 针对 大 规模 图 
| 试 程序 集 。 宽 度 优先 搜索 是 图 算法 中 最 重要 也 是 最 基础 的 操作 之 一 , 是 其 他 多 


Ar Aa 
法 的 基础 。Graph 500 中 的 图 


算法 分 
种 图 算 


采用 克 罗 内 科 (kronecker) 算法 来 生成 ， 图 的 顶点 度 分 布 满足 


指数 规律 ， 即 满足 大 部 分 顶点 的 度 "都 很 小 ， 而 少量 顶点 具有 很 大 的 度 〈 这 也 被 称 为 小 世界 


)。 为 了 节省 
LE HAS LAT FR KA 


图 存 


mau, B 


采用 压缩 稀 朴 行 (Compressed Sparse Row, CSR) 格式 来 表示 。 
FP， 主要 的 数据 结构 (或 对 象 ) 是 column ( 列 ) 和 rowstarts GTE 


Ga FER), column 对 象 连续 存放 每 个 顶点 的 邻接 顶点 阵列 , rowstarts 对 象 存放 每 个 顶点 


在 邻接 和 矩阵 中 的 起 始 下 标 。 帮 有 
被 访问 过 的 位 
点 被 访问 过 ， 以 后 都 不 会 再 去 扩 
顶点 邻接 矩阵 的 重复 访问 ， 从 而 能 够 大 大 提高 宽度 优先 
个 顶点 对 应 的 visited 对 象 需要 被 访问 多 次 。 同 时 在 宽度 优先 搜索 的 时 
队列 oldq 和 newq， 分 别 代 表 当 前 层 需要 扩展 的 顶点 集合 和 下 一 


而 


E 每 次 执行 宽度 优先 搜索 的 时 候 , 会 维护 
图 (Bitmap) 信息 visited (1 代表 已 访问 过 ，0 
RETA TILA ABBE. HE visited 位 
FLA INTER 


a 


\ 表 还 没 被 访问 )， 
图 能 够 大 量 


个 代表 顶点 是 


EEC% 
一 旦 顶 
减少 对 


的 顶点 


层 需 要 扩展 


护 两 个 


EA 


RE 


pred 对 象 用 于 存放 每 个 顶点 在 宽度 优先 搜索 树 中 的 父 顶 点 。 在 试验 中 ， 我 们 运行 规模 


”因为 使 


度 是 指 与 该 顶点 相 邻 的 顶点 个 数 


] HMTT 硬件 监控 系统 的 所 有 访 存 物 到 


地 址 序列 几乎 没有 


销 ， 这 


里 我 们 没有 显示 


al 
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(scale) Jj 23, WAS Cedgefactor) 为 16 (默认 值 ) 的 图 ， 即 图 中 包含 2? 顶点 ， 
每 个 顶点 的 平均 度 为 16。 整 个 压缩 稀 琉 行 图 需要 的 存储 空间 约 为 2GB， 位 图 visited 的 
大 小 为 1MB， 这 足够 放 入 最 后 一 级 缓存 (为 4MB)。 


de 3 为 宽度 优先 搜索 程序 执行 时 随 着 线程 个 数 的 增加 主要 对 象 的 访 存 个 数 的 变化 情况 ， 
KPF, 第 一 列 代表 线程 个 数 , 后 面 的 儿 列 分 别 代 表 不 同 对 象 的 读 写 访 存 请 求 占 总 访 存 请 求 的 
比例 ， 比 如 col r 代表 column 对 象 的 读 请 求 所 占 比 例 ， 而 col_w 代表 column 对 象 的 写 请 
求 所 占 比例 ，total 列 代表 这 几 个 主要 对 象 的 总 访 存 占 程序 总 访 存 的 比例 。 其 中 column 对 
象 的 访 存 占 程序 总 访 存 的 比例 最 大 ， 在 1 个 线程 的 时 候 占 65.71%，128 线程 时 占 54.22%, 

而 且 可 以 看 到 column 对 象 为 只 读 访 问 ， 写 请 求 始 终 为 0。 随 着 线程 个 数 的 增加 ，column 
对 象 的 访 存 所 占 比例 在 下 降 , 而 visited 对 象 访 存 所 占 比 例 从 1 个 线程 的 6.08% 增 加 到 128 
个 线程 的 23.65%。 在 total 列 ， 可 以 看 到 对 不 同 线程 个 数 ， 超 过 96% 的 宽度 优先 搜索 访 存 都 
是 由 这 些 主 要 对 象 发 出 的 ， 证 明 我 们 方法 的 正确 性 。 


表 3. 宽度 优先 搜索 测试 程序 中 不 同 对象 的 访 存 比例 
线程 数 colr col w visited r visited w row r row w pred r pred w total 

1 65.71% 0.00% 5.21% 0.87% 7.79% 0.00% 8.43% 8.44% 96.46% 

2 64.96% 0.00% 5.36% 1.32% 7.72% 0.00% 8.35% 8.35% 96.06% 

4 55.19% 0.00% 16.01% 4.54% 6.57% 0.00% 7.10% 7.06% 96.46% 

32 55.1399 0.00% 17.11% 5.28% 6.58% 0.00% 7.10% 7.06% 98.24% 

128 542299 0.00% 18.38% 5.27% 6.47% 0.00% 6.98% 6.93% 98.26% 


T 


图 18 显示 随 着 线程 个 数 的 增加 ， 每 个 主要 对 象 的 访 存 请 求 〈 包 括 读 和 写 ) 个 数 的 归 一 
化 值 ， 以 1 个 线程 的 访 存 个 数 为 基本 值 。 可 以 看 到 除了 visited 对 象 外 ， 其 它 对 象 的 访 存 
个 数 几 乎 保持 不 变 (最 大 增加 幅度 约 为 0.59%), Tl visited 对 象 的 访 存 请 求 个 数 在 2 线程 
的 时 候 增 加 了 79.0496, 4 线程 时 增加 547.81%, 128 线程 时 增加 662.27%。 这 主要 是 因为 在 
宽度 优先 搜索 过 程 中 ， 每 扩展 一 个 顶点 都 需要 访问 visited 对 象 来 确定 该 顶点 是 否 已 被 访 
问 过 ， 所 以 对 visited 对 象 的 访问 比较 频繁 (实际 上 访问 次 数 等 于 该 顶点 的 度 )。 前 面 分 
B, visited 数组 的 大 小 为 1IMB， 而 最 后 一 级 缓存 的 大 小 为 4MB， 在 单线 程 的 时 候 ， 大 
部 分 的 visited 访问 都 能 在 缓存 中 命中 ， 而 随 着 线程 个 数 的 增加 ， 由 于 线程 之 间 的 相互 


1 线程 目 2 线 程 日 4 线程 
B 322X12 E 1282X € 


5 
10 
n 8 4 
3 Es 
D4 G 
一 2 | 
A 0 Es = os m 1 
= 四 (= 已 o c p 0 
E E D D 三 2 1 2 4 8 16 32 64 128 256 
3.5 & 8 6 & 线程 个 数 
8 
[e] 
一 BFS 中 主要 对 象 
图 18. 随 着 线程 个 数 增加 不 同 图 19. 随 着 线程 个 数 增加 
对 象 访 存 请 求 个 数 的 变化 带宽 和 性 能 的 变化 


干扰 和 对 共享 缓存 的 范 争 ， 会 导致 对 visited 的 访问 模式 变 得 更 加 随机 ， 从 而 产生 更 多 的 
缓存 缺失 ， 导 致 发 出 更 多 的 访 存 请 求 。 而 对 于 其 他 对 象 ， 由 于 visited 的 过 滤 作 用 ， 实 际 
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后 一 级 缓存 


pa 


19 Ws BG 


里 的 性 能 采 


TEPS"). TUE 
3 个 不 同 阶段 : 第 1 个 阶段 从 单线 程 到 4 线程 ， 性 能 的 提高 和 访 存 带宽 的 提高 几乎 


上 对 应 每 个 顶点 的 元 素 都 上 只 被 访问 一 次 ， 而 - 
的 相互 干扰 的 影响 很 小 ， 
线程 个 数 的 增加 ， 宽 度 优先 搜索 程序 的 性 
] Graph 500 内 的 性 能 指标 一 每 秒 钟 访 问 的 边 个 数 (Traversed Edges Per 


一 种 低 开销 软 人 硬件 混合 


日 是 随机 访问 ,所 
访 存 个 数 几 乎 


到 随 者 


的 细 粒 度 内 存 行为 分 析 方 法 


以 这 些 对 象 的 访问 模式 受到 最 


RETE. 
能 和 访 存 带宽 的 变化 情况 ， 这 


Second, 


线程 个 数 从 1 增 大 到 256， 性 能 和 访 存 带宽 都 随 着 提高 ， 而 且 存在 


样 ， 说 


明 性 能 的 提高 完全 得 益 于 访 存 带宽 。 在 这 个 阶段 ， 线 程 个 数 翻 倍 能 够 带 来 约 1.2 倍 的 提升 。 


和 


ES 


HE apt 
TH s 


访 存 


2 个 阶段 从 4 线程 
低 ， 为 1.23。 这 是 因为 在 这 个 阶段 ， 线 程 
重 ， 从 而 导致 更 多 的 访 存 。 从 前 面 的 分 析 可 知 ， 主 
大 量 增加 ， 从 而 影响 性 能 ; 
于 平稳 ， 只 有 约 0.018 的 提高 ， 这 时 


到 64 线程 ， 随 着 线程 个 数 翻 倍 ， 访 存 
个 数 已 经 较 多 ， 导 致 对 最 后 一 级 缓存 的 相互 干扰 加 
是 visited 对 象 的 访 存在 4 线程 之 后 


HE 


N 


提高 约 1.28， 而 性 能 提高 稍 


pa 


HE 
E 


宽度 优先 


搜索 的 访 存 带宽 达 3 


值 内 存 带 宽 为 6.4GB/s, 已 经 达到 72.81% 的 内 存 带宽 使 用 率 。 


机 的 访 存 模式 , 还 有 线程 间 的 
度 优 先 搜 索 的 访 存 带宽 扩展 过 至 


0.019)。 


实验 中 我 
一 级 缓存 干扰 而 出 现 ， 
致 缓存 干扰 加 
visited 对 象 在 缓存 中 被 干扰 ， 我 们 可 以 进一步 使 用 页 着 
visited 对 象 提供 足够 多 的 颜色 ， 从 而 使 


门 还 发 


il, JU 


销 ， 


现 ， 线 程 数目 超过 1024， 宽 度 优先 搜索 的 性 能 会 由 了 
下 降 。 所 以 增加 线程 个 数 ， 一 方面 能 够 提高 访 存 带宽 ， 另 一 方面 又 会 导 


尽量 在 缓存 中 命 


而 第 3 个 阶段 从 64 线程 到 256 线程 ， 
因为 宽度 优先 搜索 的 访 存 比较 随机 ， 而 此 时 已 经 达到 了 
的 瓶颈 , 增加 线程 个 数 不 会 再 提高 访 存 带宽 。 试验 中 , 我 们 发 现在 256 线程 的 时 候 ， 
Bl 4.66GB/s (通过 分 析 HMTT 访 存 踪迹 得 到 )， 而 系统 的 理论 峰 


以 及 每 次 宽度 优先 搜索 的 同步 
I 瓶 开 ， 在 这 个 阶段 ， 性 能 同样 也 几乎 没 怎么 提高 〈 约 为 


是 对 visited 对 象 。 所 以 选择 合适 线程 个 数 是 
色 (Page Coloring) 技术 来 为 


+ 


生 能 都 趋 


这 时 访 存 带宽 和 


1 于 宽度 优先 搜索 具有 比较 随 
销 等 ， 这 些 都 导致 宽 


更 加 严重 的 最 后 


Ei 


个 折衷 。 为 了 减低 


rH 
o 


口 普通 页 面 mam 2M 大 页 面 


1.05 

jog 1.4 

s 1.10 oy 1.3 

3B1.2 

ead H11 

j 1.00 T10 

HT 0.9 
uiii MUNERE 2 R 

线程 个 数 
图 20. 页 表 访 存 随 着 线程 个 数 增加 的 变化 图 21. 


i3 
081 2 4 8 163264128 
p816, 


Lo 


对 已 访问 对 象 使 用 大 
页 面 优化 的 性 能 提高 


图 20 显示 随 着 线程 的 增加 ， 


于 和 汶 路 转换 缓冲 缺失 导致 的 页 表 访 存 的 归 一 化 增长 比例 ， 


相对 于 单线 程 ，2 线程 增加 3.5%， 而 128 线程 增加 9.6%。 进 一 步 分 析 ， 我 们 发 现 对 于 宽度 


优先 搜索 中 的 visited, newq 和 oldq 对 象 几 乎 没有 产 
的 大 小 只 有 IMB 左右 ， 基 本 都 能 放 在 旁 路 转换 缓冲 
续 ， 几 乎 不 会 导致 劳 路 转换 缓 六 


rowstarts & 


大 小 接近 2GB, 而 


转换 缓冲 缺失 。 图 21 演示 使 用 大 页 面 优化 相对 于 未 使 


生 页 表 访 存 ， 这 是 


PERRA. HUND 3 个 对 象 产生 绝 大 部 分 页 表 访 
占 11.92%, column 约 占 72.85%, pred 约 
| 它 的 访 存 模式 为 顶点 内 部 连续 而 顶点 间 随 机 , 所 导致 的 页 表 访 存量 最 大 。 


我 们 可 以 使 用 2MB 的 大 页 面 来 存放 Column 对 象 ， 以 降低 


FI 


因为 visited 


H; 而 newg 和 oldg 的 访问 都 比较 连 
f, HF 
14.02%. column 由 于 本 身 的 


页 表 访 存 ， 从 而 降低 劳 路 
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TATUM A PE RBH, FY DAG BIT 


高 8.18%。 这 是 因 
页 面 的 旁 路 转换 组 


AW 10 卷 第 5 


H 


单线 程 ， 必 


FE 能 可 以 提高 31.59%， 而 对 多 线程 ， 性 能 提高 没 这 么 明显 ， 比 如 对 128 线程 
为 随 着 线程 个 数 的 增加 ， 对 column 对 象 的 访问 变 得 更 加 随机 ， 而 用 了 
! 项 数 有 限 (为 32 个 )， 导 致 更 多 的 旁 路 转换 缓冲 访问 干扰 。 但 是 另 一 方 
面 , 对 于 宽度 优先 搜索 , 增加 线程 个 数 能 够 更 均匀 地 划分 工作 量 , 从 而 达到 更 好 的 负载 3 
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提 


PA 


Pi, 


降低 每 层 宽度 优先 搜索 的 同步 开销 。 所 以 可 以 看 到 使 用 大 页 面 的 性 能 提高 先 增 大 ， 而 后 又 降 
低 ， 在 8 线程 时 最 好 ， 达 到 11.92%. 


5 相关 工作 
目前 国内 外 获取 或 分 析 访 存 踪迹 的 方式 主要 有 以 下 几 利 


Cinstrumentation)、 性 能 计数 器 、 硬 件 仿真 等 。 


模拟 器 : 模拟 器 是 进行 
Gems), (HAE BEI d WIR BEAR 


Simics’! 


无 法 运行 完整 的 应 用 程序 。 
模拟 并 提供 细致 底 


FU FEAT A ERES 


P: Be ae. CAS H 


p 


E 要 工具， 常用 的 模拟 器 有 DramSim2?"!, 
慢 ， 只 能 用 于 分 析 很 小 时 间 段 内 的 访 存 序列 ， 
些 有 代表 性 的 工作 包括 : MemSpy, 
民 内 存 系统 事件 统计 的 工具 ， 可 用 于 定位 程序 的 访 存 瓶 宽 ; 威 登 多 佛 尔 


个 通过 软件 内 存 系统 


CWeidendorfer) 等 采用 运行 时 插 桩 外 带 缓存 模拟 的 方法 来 分 析 访 存 行为 ; SIMT™*!, — 


个 执行 驱动 的 主要 用 于 内 存 性 能 研究 的 模拟 器 ， 能 够 提供 多 种 不 同 的 内 存 配置 。 
i 柱 通过 解析 可 执行 程序 的 指令 流 ， 能 够 得 到 完整 的 访 存 地址 序列 ， 但 是 代 


3] 


插 桩 : fV 
码 插 桩 的 开销 比较 大 ， 而 且 引 入 大 量 的 干扰 访 存 。 常 用 的 工具 有 Pin, DynamoRIOP!, 


Valgrind?*!, ATOM?”!, Dyninst'?!ftt PEBIL?*!4¢: , 


Pini 是 一 个 应 用 很 广 的 动态 揪 桩 工具 ， 工 作 方 式 是 利用 即时 编译 器 动态 
行 的 代码 ， 在 产生 代码 的 同时 注入 播 桩 代码 。!1 
成 为 学 术 界 影响 力 最 大 的 插 桩 工具 之 一 。Pin 也 是 基于 ptrace API 来 获取 对 进 各 
F 销 比较 大 ， 常 常 导致 性 能 下 降 到 原来 的 几 十 分 之 一 ， 而 且 


是 使 用 即时 编译 


导致 Pin 的 运行 天 


于 Pin 的 易 用 性 、 灵 活性 及 丰 


Pin 的 内 部 实现 是 不 开源 的 ， 用 户 很 难 对 插 桩 进行 优化 。 


DynamoRIOD 也 是 一 个 基于 即时 编译 器 的 : 
加 入 了 很 多 优化 ， 其 开销 甚至 比 Pin 要 低 一 些 
LD PRELOAD 环境 变量 将 动态 共享 库 加 载 到 进程 空间 ， 因 


功能 丰富 的 动态 搬 桩 工具 。 由 于 在 产生 代码 时 
。 但 是 DynamoRIO 是 基于 Linux 系统 下 的 
此 无 法 对 正在 运行 ! 程 进行 


插 桩 。 同 样 使 朋 


昌 即 时 编译 尽管 能 够 提供 强大 的 插 


桩 功能 ， 其 开销 还 是 很 大 。 


=E rf 


的 控制 。 但 


Dyninst"?&t PEBILC 都 是 通过 将 插 桩 点 的 指令 蔡 换 成 晶 


桩 代码 位 置 。 其 中 Dyninst 既 支 持 在 进程 运行 时 对 内 存 中 的 进 
态 的 可 执行 文件 内 静态 插 桩 ， 生 成 一 个 新 的 可 执行 文 伯 
通过 函数 调用 实现 ， 对 于 那些 实 ] 


BL frg FJ 


行文 件 CN ELF 格式 ) 进行 处 理 
在 运行 中 的 进程 进行 插 柱 ， 缺 乏 灵活 性 。 
,都 有 一 个 缺点 ， 就 是 无 法 对 函数 的 出 口 进行 有 效 
们 提供 的 APE 只 支持 对 函数 入 口 的 


上 面 介绍 的 这 几 种 播 桩 工 


用 Pin 和 DynamoRIO 可 以 在 函数 级 别 进行 插 桩 ,但 是 它 
插 树 。 尽 管 这 些 工 具 也 能 够 以 指令 级 别 进行 插 桩 ， 找 到 目标 函数 的 调用 指令 ,将 插 术 代码 安 
排 在 调用 指令 之 后 ， 从 而 实现 对 函数 出 口 的 插 桩 , 然而 以 指令 级 别 进行 扣 


? Application Programming Interfaces， 应 月 


E 成 一 个 新 的 包含 插 桩 代码 的 可 执行 文 但 


E 转 指令 来 实现 将 控制 转移 到 插 
程 映 象 动态 搬 桩 ， 也 支持 向 于 
Fo [HIE Dyninst 的 插 桩 代码 功能 都 是 


功能 的 揪 桩 ， 开 销 比较 大 。 而 PEBIL 


EXT HIJA 


EE. 458 


而 无 法 对 正 


i 柱 意味 着 即时 编译 


需要 对 每 条 指令 都 进行 


将 大 大 增加 。 


一 种 低 开 销 软 便 件 混 合 的 细 粒 度 内 存 行为 


解析 判断 ， 重 新 生成 代码 ， 开 销 将 非 


还 有 其 它 一 些 使 用 搬 桩 进行 访 存 行为 分 析 的 工作 ， 如 : 


采用 软件 T Re T E TAL, 它 还 提供 许多 包 
工具 ，EphemeralB9 使 
桩 代码 进行 并 行 化 ; 引 


日 统计 采样 以 降低 插 桩 开销 ;， shadow 


分 析 方 法 


常 严重 ， 由 此 引入 的 干扰 访 存 也 


SIGMAPE9 是 一 个 数据 收据 框架 


含 函 数 和 变量 信息 的 模拟 和 分 析 


profiling? I SuperPin?”! J) of 44h 


Ke 2 OO}: p FE E AS del p 77 RRO E EE FF PUO eR 


的 开销 ， 并 且 避 免 了 引入 明显 的 1 


件 插 桩 的 方法 来 定位 


并 对 踪迹 进行 高 效 压缩 ; 韦 恩 伯 格 (Weinberg) 等 5 采用 基本 块 采样 的 方法 来 降低 访 存 分 析 
2. DIR (Roy) 等 上 提出 一 种 混合 静态 和 动态 二 进 制 代 
码 插 桩 的 方式 来 降低 开销 ， 马 拉 塔 (Marathe) 等 5 提出 两 种 混合 使 用 硬件 性 能 计数 器 和 软 
部 内 存 应 用 中 的 缓存 一 致 性 瓶颈 。 


硬件 性 能 计数 器 : 便 件 性 能 计数 器 是 一 种 很 常用 的 分 析 访 存 行为 特征 的 低 开 销 工具 。 但 
是 它 只 能 得 到 关于 访 存 行为 的 整体 统计 信息 ， 比 如 绥 冲 缺失 ， 学 路 转换 缓冲 缺失 等 ， 而 不 能 


获取 应 用 的 完整 访 存 踪迹 ， 无 法 对 应 用 访 存 行 为 做 更 深入 的 分 析 。 艾 拉 尼 安 (Eranian) P"! 


ec 
mp 
Ce 


pu x: 


口 


7N 


上 硬件 性 能 计数 器 是 定位 和 理解 内 存 系统 性 能 的 寻 
科 维 茨 〈Itzkowitz) 等 B8 在 UltraSPAR 


Ae 
pun zi 


FMP ES 
Mat 


H 
令 细 节 信 息 ， 巴克 (Buck) 等 B9 在 Itanium 2 平台 上 
牛 计 数 器 采样 获取 缓存 缺失 的 地 址 , 并 根据 编译 调试 信 ， 
a; DPro 人 9 是 一 个 面向 数据 的 分 析 工 具 ， 能 够 将 缓存 缺失 关联 到 数据 〈 即 变量 )， 而 不 是 传 
统 的 指令 ，DProf 使 用 硬件 性 能 计数 器 来 采样 收集 访 存 地 址 


重要 的 低 开 销 手段 。 一 些 典 型 的 工作 如 : 
C-III 机 器 上 使 用 硬件 计数 器 进行 访 存 行 为 分 析 ， 
得 到 事件 次 数 ， 为 此 他 们 进一步 使 用 Sun ONE Studio 编译 器 来 支持 为 每 条 访 存 提 


发 出 Cache Scope 工具 ， 基 于 硬 
息 将 访 存 地 址 关联 到 程序 中 的 变 


序列 ， 然 后 将 数据 划分 成 不 同 的 


缓存 合 失 类 型 Oprofile JE Linux 系统 内 集成 的 性 能 分 析 工 具 ， 它 基于 对 硬件 计数 器 的 采 
样 来 收集 事件 信息 ， 并 能 够 将 这 些 事 件 关联 到 每 个 函数 。 


硬件 仿真 : 这 种 方法 只 能 获取 简化 系统 的 完整 访 存 踪迹 , 与 真实 系统 有 一 定 的 偏差 ， 而 


且 硬 件 仿真 实现 成 本 高 ， 不易 推 广 。IBM、 英 特 尔 等 企业 都 研制 出 硬件 侦 听 工具 用 于 分 析 访 
、MemorIESI 等 。 这 些 工具 一 般 都 是 插 在 特定 总 线 上 侦 听 访 存 命 令 ， 


存 行为 ， 如 PHASE™! 


所 以 移植 性 较 差 ， 而 且 无 法 有 效 输出 人 


高 达 儿 十 GB IU FERRE. 


托 雷 利 亚 斯 (Torrellas) 等 所 提出 了 一 种 与 我 们 类 似 的 软 硬 件 混合 的 方法 来 分 析 多 核 操 
作 系 统 的 缓存 性 能 特征 。 但 是 他 们 使 用 的 硬件 监控 卡 只 能 外 


DDR 总 线 。 而 且 他 们 的 软件 监控 页 表 部 分 依赖 于 MIPS 


| 对 MIPS 总 线 ， 而 不 是 通用 的 


结构 内 的 软件 管理 旁 路 转换 缓冲 来 


获取 物理 地 址 到 虚拟 地 址 的 映射 。 这 种 方法 不 适用 于 当前 最 
访 存 的 方式 来 填 入 学 路 转换 缓冲 的 x86 架构 机 器 。 而 通过 监控 页 表 更 新 操作 的 方法 , 不 依赖 


于 任何 便 件 。 
第 4 节 提 到 的 吴 等 


普 训 的 使 用 人 硬件 自动 管理 的 页 表 


人 提出 的 一 种 对 象 相关 的 访 存 行为 分 析 , 将 访 存 地址 序列 按 对 象 进行 


存 行为 特征 ， 且 开销 很 小 。 


详细 的 对 象 级 访 存 分 析 对 性 能 优化 很 有 价值 ， 如 在 SofttOLP 握 中， 用 缓存 划分 指导 对 象 
级 的 基于 页 面 着 色 技 术 , 来 减少 对 象 之 间 的 缓存 相互 干扰 。 BU. 动态 插 术 方式 来 进 
行 访 存 分 析 ， 对 于 10% 采 样 引入 的 开销 高 达 30~80 倍 。 本 文 
级 访 存 序 列 ， 而 引入 总 的 开销 不 超过 6%。 


划分 ， 能 够 将 具有 规律 访 存 模式 的 对 象 分 离 出 来 ， 并 用 于 访 存 序列 压 缩 。 但 是 他 们 的 方法 是 
基于 插 桩 来 获取 访 存 序 列 , 开销 比较 大 。 本 文 提 出 的 软 硬 件 ; 


混合 方式 能 够 准确 获取 对 象 级 访 


是 出 的 方法 能 够 得 到 完整 的 对 象 
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6 ”总结 及 下 一 步 工作 


准确 地 获取 程序 在 真实 系统 上 运行 的 访 存 序列 , 并 进行 更 细 粒 度 的 访 存 行为 分 析 是 进行 
内 存 系统 研究 和 程序 优化 的 基础 。 本 文 提出 了 一 种 低 开 销 的 软 硬 件 混合 的 函数 级 和 对 象 级 内 


存 行为 分 


的 方式 ， 通过 直接 修改 内 存 中 的 进程 映像 ， 在 函数 的 入 口 及 出 口 插入 标签 访 存 指令 ,建立 标 


签 访 存 与 
表 更 新 操 
得 到 对 象 


析 方 法 : 硬件 方面 使 用 HMTT 卡 监 控 全 系统 访 存 信号 ;软件 方面 使 用 二 进 制 插 柱 


上 层 函 数 执行 流 的 对 应 关系 , 实现 对 访 存 踪迹 的 函数 级 分 割 ; 通过 监控 内 核 中 的 页 
和 作 ， 导 出 页 表 信 息 ， 同 时 导出 进程 运行 过 程 中 对 象 的 动态 内 存 分 配 信息 ,综合 分 析 
级 的 访 存 序列 。 实 验 结果 显示 了 该 方法 的 准确 性 ， 而 引入 的 开销 很 低 。 


下 一 步 工 作 包 括 :(1) 实现 只 对 那些 访 存 密集 型 的 函数 进行 选择 性 的 插 桩 ;(2) 对 得 到 


的 访 存 踪迹 进行 更 细 粒 度 的 以 基本 块 为 单位 的 划分 ;(3) 对 虚拟 机 (如 Xen) 的 访 存 行为 分 
析 ， 监 控 虚拟 机 内 的 机 器 内 存 到 虚拟 物理 内 存 (P2M) 的 映射 ， 实 现 将 虚拟 机 访 存 序列 按 每 
个 客户 机 进行 划分 。 
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